Introduction
这篇论文主要是要解决英文短语的词向量表示问题,英语的词向量可以分成两种,一种是compositional
,另一种是non-compositional
。前者的短语语义就是组成单词的叠加,而后者则会产生完全不同的意思。本文引入了一个score function
来度量一个短语的compositional
的程度。
完全依赖non-compositional embedding
会产生数据稀疏的问题。而使用compositional embedding
的问题更明显,因为有些短语本质上就是一个non-compositional embedding
。例如bear fruits
表示的是to yield results
,这很难通过单词本身推断出来。
因此应该要将两种embedding
结合起来。现在主要的学习方法有两种,一种就是都当作compositional
的,另一种是两种都学习,然后选一个更好的。
Method
Score function
$\alpha(p)=\sigma(\mathbf{W} \dot \phi (p))$
compositional embedding
$\mathbf{c}(p)$
non-compositional embedding
$\mathbf{n}(p)$
然后用下面的公式来得到我们要的最终的embedding
。
$\mathbf{v}(p)=\alpha(p)\mathbf{c}(p)+(1-\alpha(p))\mathbf{n}(p)$
当训练数据接近无限大的时候,$\alpha(p)$会无限接近0,并且non-compositional embedding
会占主导地位,因为数据无限大就不存在数据稀疏问题了,而此时non-compositional embedding
能更好地拟合数据。但是现实中,数据都是有限的,因此compositional embedding
会减轻有限数据带来的问题。